PieArena: Ranking y Perfil de Agentes de Lenguaje en Negociaciones Realistas
PieArena mide la capacidad de negociación de los LLMs en escenarios reales. GPT-5 iguala o supera a humanos en este benchmark.
PieArena mide la capacidad de negociación de los LLMs en escenarios reales. GPT-5 iguala o supera a humanos en este benchmark.